ارائه الگوریتم های ریشهیاب و غلطگیر برای متون زبان کردی
پایان نامه
- وزارت علوم، تحقیقات و فناوری - دانشگاه کردستان - دانشکده مهندسی
- نویسنده شاهین صلواتی
- استاد راهنما کیومرث شیخاسمعیلی فردین اخلاقیان طاب
- تعداد صفحات: ۱۵ صفحه ی اول
- سال انتشار 1392
چکیده
زبان کردی که در دسته زبان های هندواروپایی می باشد، توسط ساکنان مناطق وسیعی در کشورهای ایران، عراق، ترکیه و سوریه مورد تکلم قرار می گیرد. علی رغم جمعیت بالای متکلمان زبان کردی، این زبان در دسته زبان های کم منبع قرار دارد و چندان مورد توجه پژوهشگران حوزه پردازش زبان به ویژه بازیابی اطلاعات و پردازش زبان طبیعی قرار نگرفته است. بر همین اساس، با هدف ارائه راه حل و رفع مشکل تنک بودن منابع، اخیرا پروژه پردازش زبان کردی (klpp) در دانشگاه کردستان شروع به کار کرده است. هدف اصلی پروژه، ارائه منابع و ابزارهای ضروری برای پردازش متون زبان کردی می باشد. این گزارش، خروجی های یک پایان نامه ارشد را که در چارچوب klpp به انجام رسیده است، گزارش می کند. اولین خروجی این پروژه، مجموعه پ?وان است، که شامل تعداد زیادی از اسناد نوشته شده به سورانی و کرمانجی –دوگویش اصلی زبان کردی- می باشد. این مجموعه یک منبع زبان شناسی غنی محسوب می شود و بصورت گسترده در تمامی بخش های این پایان نامه برای تسهیل توسعه سایر ابزاها مورد استفاده قرار گرفته است. به دنبال ساخت این مجموعه اسناد، ما مجموعه آزمون پ?وان را به عنوان یک سنگ محک برای سیستم های بازیابی اطلاعات کردی، ایجاد می کنیم. پس از تولید این پیش نیاز ضروری، ما بر روی اهداف اصلی این پایان نامه، که شامل ساخت یک ریشه یاب، یک هسته یاب و یک غلط گیر، برای زبان کردی به طور عام و برای گویش سورانی به طور خاص می باشد، تمرکز می کنیم. برای این هدف، ابتدا ژ?ده ر، یک ریشه یاب مبتنی برقاعده (پشتیبانی کننده از هر دو گویش سورانی و کرمانجی) ایجاد و تاثیر آن را بر بهبود کارایی موتورهای جستجوی کردی نشان می دهیم. سپس، په ی?، یک هسته یاب مستقل از فرهنگ لغت را ارائه می کنیم، که توانایی استخراج هسته کلمات مشتق (افعال یا اسامی) را دارد. په ی?، مبتنی بر مجموعه ای از قواعد ساخت واژه می باشد، که آن ها را از گویش سورانی گردآوری کرده ایم. در نهایت، ??نووس را که یک ابزار غلط گیر متون سورانی می باشد، ارائه می کنیم. غلط گیر از روش های آماری، مبتنی برقاعده و فرهنگ لغت بهره می برد. ??نووس تنها برای تشخیص کلمات اشتباه ارائه نشده است، بلکه می تواند یک لیست از جایگزین های بالقوه را به کاربر پیشنهاد کند. بسیار علاقه مندیم به این نکته اشاره شود که تمامی راه حل های ارائه شده در این پایان نامه، پیاده سازی و کارایی آن ها به صورت تجربی از طریق مطالعات آزمایشی مختلف بررسی شده است. اضافه بر آن، تمامی منابع زبان شناسی و ابزارهای نرم افزاری ارائه شده در طول این پایان نامه، به صورت دسترسی آزاد، در اختیار جامعه پژوهشی قرار گرفته است. امیدواریم که این کار، پژوهش های بیشتر در حوزه پردازش زبان کردی را موجب شود.
منابع مشابه
ارائه سیستم خلاصه ساز متون فارسی برمبنای ویژگی های زبان شناختی و رگرسیون
Considering the vast amount of existing written information and the shortage of time, optimal summarization of books, articles, news reports, etc. on the Web is a major concern of researchers. In this paper, we propose a new approach for Persian single-document Summarization based on several linguistic features of text. In our approach after extracting the linguistic features for each sentence,...
متن کاملارائه یک سیستم هوشمند و معناگرا برای ارزیابی سیستم های خلاصه ساز متون
Nowadays summarizers and machine translators have attracted much attention to themselves, and many activities on making such tools have been done around the world. For Farsi like the other languages there have been efforts in this field. So evaluating such tools has a great importance. Human evaluations of machine summarization are extensive but expensive. Human evaluations can take months to f...
متن کاملبررسی تحوّلات واکی واژه های زبان کردی( گویش کلهری) در گذر تاریخ نسبت به زبان پهلوی
ایل کلهر، یکی از بزرگترین ایلهای بومی ایران است و گویش کلهری نیز یکی از گویش های آن - از شاخهٔ زبان های شمال غربی- به شمار میآید. از مطالعۀ واژههای موجود و مستعمل در این گویش(گویش کلهری) چنان برمیآید که این واژهها از چنان قدمتی برخوردارند که پیشینهٔ آنها به زبان فارسی میانهٔ پهلوی میرسد. پارهای از این واژهها در گذر زمان بدون تغییر باقی مانده و پارهای نیز تحت تأثیر دگرگونیهای زبانی، د...
متن کاملاستعارههای مفهومی رنگ در زبان کردی ایلامی
چکیده تا قبل از پیدایش زبانشناسی شناختی، "استعاره" </s...
متن کاملارائه روشی جدید برای شاخصگذاری خودکار و استخراج کلمات کلیدی برای بازیابی اطلاعات و خوشهبندی متون
Persian words in writing with a diverse and cover all modes of grammatical words with the recruitment of a series of specific rules because it is impossible to extract keywords automatically from Persian texts difficult and complex. This thesis has attempted to use linguistic information and thesaurus, keywords Mnatry be provided. Using the symbol system is structured network can be keywords, i...
متن کاملارائه روشی برای استخراج کلمات کلیدی و وزندهی کلمات برای بهبود طبقهبندی متون فارسی
Due to ever-increasing information expansion and existing huge amount of unstructured documents, usage of keywords plays a very important role in information retrieval. Because of a manually-extraction of keywords faces various challenges, their automated extraction seems inevitable. In this research, it has been tried to use a thesaurus, (a structured word-net) to automatically extract them. A...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
وزارت علوم، تحقیقات و فناوری - دانشگاه کردستان - دانشکده مهندسی
کلمات کلیدی
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023